This paper proposes a generalizable, end-to-end deep learning-based method for relative pose regression between two images. Given two images of the same scene captured from different viewpoints, our algorithm predicts the relative rotation and translation between the two respective cameras. Despite recent progress in the field, current deep-based methods exhibit only limited generalization to scenes not seen in training. Our approach introduces a network architecture that extracts a grid of coarse features for each input image using the pre-trained LoFTR network. It subsequently relates corresponding features in the two images, and finally uses a convolutional network to recover the relative rotation and translation between the respective cameras. Our experiments indicate that the proposed architecture can generalize to novel scenes, obtaining higher accuracy than existing deep-learning-based methods in various settings and datasets, in particular with limited training data.
translated by 谷歌翻译
Shift Invariance是CNN的关键属性,可提高分类性能。然而,我们表明,与循环偏移的不变性也可能导致对对抗性攻击的更大敏感性。我们首先在使用换档不变线性分类器时表征类之间的余量。我们表明边际只能依赖于信号的DC分量。然后,使用关于无限宽网络的结果,我们显示在一些简单的情况下,完全连接和换档不变神经网络产生线性决策边界。使用这一点,我们证明了神经网络中的换档不变性为两个类的简单情况产生了对手示例,每个案例由灰色背景上的黑色或白点组成的单个图像。这不仅仅是一种好奇心;我们凭经验显示,使用真实的数据集和现实的架构,换档不变性降低了对抗性的鲁棒性。最后,我们描述了使用合成数据来探测这种连接源的初始实验。
translated by 谷歌翻译
In this work we address the challenging problem of multiview 3D surface reconstruction. We introduce a neural network architecture that simultaneously learns the unknown geometry, camera parameters, and a neural renderer that approximates the light reflected from the surface towards the camera. The geometry is represented as a zero level-set of a neural network, while the neural renderer, derived from the rendering equation, is capable of (implicitly) modeling a wide set of lighting conditions and materials. We trained our network on real world 2D images of objects with different material properties, lighting conditions, and noisy camera initializations from the DTU MVS dataset. We found our model to produce state of the art 3D surface reconstructions with high fidelity, resolution and detail.
translated by 谷歌翻译
Light is a complex-valued field. The intensity and phase of the field are affected by imaged objects. However, imaging sensors measure only real-valued non-negative intensities. This results in a nonlinear relation between the measurements and the unknown imaged objects. Moreover, the sensor readouts are corrupted by Poissonian-distributed photon noise. In this work, we seek the most probable object (or clear image), given noisy measurements, that is, maximizing the a-posteriori probability of the sought variables. Hence, we generalize annealed Langevin dynamics, tackling fundamental challenges in optical imaging, including phase recovery and Poisson (photon) denoising. We leverage deep neural networks, not for explicit recovery of the imaged object, but as an approximate gradient for a prior term. We show results on empirical data, acquired by a real experiment. We further show results of simulations.
translated by 谷歌翻译
近年来,文本发现的主要范例是将文本检测和识别的任务结合到一个端到端的框架中。在此范式下,这两个任务都是通过从输入图像中提取的共享全局特征图操作来完成的。端到端方法面临的主要挑战之一是识别跨音阶变化(较小或较大的文本)和任意单词旋转角的文本时的性能退化。在这项工作中,我们通过提出一种新型的全球到本地关注机制来解决这些挑战,用于文本斑点,称为玻璃,将全球和本地特征融合在一起。全局功能是从共享骨干线中提取的,从整个图像中保留上下文信息,而本地功能则在调整大小的高分辨率旋转的单词作物上单独计算。从当地农作物中提取的信息减轻了尺度和单词旋转的许多固有困难。我们显示了跨音阶和角度的性能分析,突出了尺度和角度的肢体的改善。此外,我们引入了一个方向感知的损失项,以监督检测任务,并显示其对所有角度的检测和识别性能的贡献。最后,我们通过将玻璃纳入其他领先的文本发现架构,改善其文本斑点性能来表明玻璃是一般的。我们的方法在包括新发布的Textocr在内的多个基准上实现了最新的结果。
translated by 谷歌翻译
为了使机器人能够实现高级目标,工程师通常会编写应用现有专业技能的脚本,例如导航,对象检测和操纵以实现这些目标。编写好的脚本是具有挑战性的,因为它们必须智能平衡物理机器人的动作和传感器的固有随机性以及它拥有的有限信息。原则上,AI计划可用于应对这一挑战并自动生成良好的行为策略。但这需要通过三个障碍。首先,AI必须了解每个技能对世界的影响。其次,我们必须弥合了解技能的作用和其代码中使用的低级状态变量之间更抽象的级别之间的差距。第三,将所有组件绑在一起需要大量的集成工作。我们描述了一种将机器人技能集成到工作的自主机器人控制器中的方法,该机器人的机器人控制器计划其技能以完成指定任务并具有四个关键优势。 1)使用概率编程语言中的想法,我们的生成技能文档语言(GSDL)使代码文档更简单,紧凑,更具表现力。 2)表达抽象映射(AM)桥接了低级机器人代码和抽象AI计划模型之间的差距。 3)控制器可以使用任何正确记录的技能,而无需任何额外的编程工作,提供插头的经验。 4)POMDP求解器计划执行技能,同时适当地平衡了部分可观察性,随机行为和嘈杂的传感。
translated by 谷歌翻译
在本文中,我们提出了一种用于几个样本监督功能选择(FS)的新方法。我们的方法首先使用捕获多功能关联的内核来了解每个类的特征空间的歧视。然后,基于Riemannian几何形状,计算复合内核,从而提取了学习的特征关联之间的差异。最后,提出了基于光谱分析的FS分数。考虑多功能关联使我们的方法逐个设计。反过来,这允许提取特征基础的隐藏歧管,并避免过度拟合,从而促进少量样本FS。我们展示了我们方法在说明性示例和几个基准测试方面的功效,在其中我们的方法在选择与竞争方法相比选择信息性特征的准确性更高。此外,我们表明,当应用于测试数据时,我们的FS会导致改进的分类和更好的概括。
translated by 谷歌翻译
文本生成模型已成为许多研究任务,尤其是句子语料库的生成焦点。但是,了解自动生成的文本语料库的属性仍然具有挑战性。我们建议一组检查生成文本语料库的属性的工具。将这些工具应用于各种生成的语料库中,使我们能够对生成模型的属性获得新的见解。作为我们特征过程的一部分,我们发现了两种主要生成技术产生的语料库存在显着差异。
translated by 谷歌翻译
我们提出了一项合成任务,乐高(学习平等和小组操作),该任务封装了遵循推理链的问题,我们研究了变压器体系结构如何学习这项任务。我们特别注意数据效应,例如预处理(看似无关的NLP任务)和数据集组成(例如,训练和测试时间时的链长度不同),以及体系结构变体,例如重量绑定层或添加卷积组件。我们研究了受过训练的模型最终如何在任务中取得成功,尤其是我们能够在某种程度上(一定程度地)理解一些注意力头以及网络中的信息如何流动。基于这些观察结果,我们提出了一个假设,即在这里进行预训练仅是因为是智能初始化而不是网络中存储的深层知识。我们还观察到,在某些数据制度中,受过训练的变压器发现“快捷方式”解决方案遵循推理链,这阻碍了该模型将其推广到主要任务的简单变体的能力,而且我们发现人们可以防止适当的快捷方式架构修改或仔细的数据准备。在我们的发现的激励下,我们开始探索学习执行C程序的任务,在此过程中,对变压器进行了卷积修改,即在密钥/查询/值图中添加卷积结构,显示出令人鼓舞的优势。
translated by 谷歌翻译
虽然神经语言模型往往对自然语言理解(NLU)任务进行令人惊讶的令人惊讶,但它们的优势和局限性仍然很差。因此,受控的合成任务是用于诊断模型行为的越来越重要的资源。在这项工作中,我们专注于讲故事的理解,是NLU系统的核心竞争力。然而,讲故事的主要综合资源是Babi基准,缺乏可控任务生成的这种系统机制。我们开发Dyna-Babi,一种动态框架,提供对Babi中的任务生成的细粒度控制。我们通过构建一个组成概括的三项新任务来展示我们的想法,这是来自原始基准的重要评估设置。我们测试了为BABI开发的专用模型以及最先进的预训练方法,发现这两种方法都解决了原始任务(> 99%的精度),并且在组成泛化设置中都没有成功地成功地成功,表示原始培训数据的局限性。我们探索了增加原始数据的方法,发现,尽管多样化培训数据比简单地增加数据集尺寸更有用,但它仍然不足以驾驶鲁棒成分泛化(具有<70%的复杂组合物的精度)。我们的结果强调了高度可控任务发生器通过模型和数据开发的良性循环创建强大的NLU系统的重要性。
translated by 谷歌翻译